import requests
from lxml import etree

# 需求：
# 一级页面：
# xpath表达式：/html/body/section/article/a
# 1、大标题的名称   ./text()
# 2、大标题的连接 ./@href
# 二级页面：//div[@class='excerpts']/article/a
# 1、小标题的名称   //div[@class='excerpts']/article/a/text()
# 2、小标题的连接    //div[@class='excerpts']/article/a/@href
# 三级页面：
# 具体小说内容 '.n'.join(文本内容列表)

"""
创建目录结构：./novel/盗墓笔记1七星鲁王宫/
保存文件：./novel/盗墓笔记1：七星鲁王宫/七星鲁王宫_第一章_血尸.txt

项目代码详情在F盘下

"""

# import os
#
# parent_title=''
# son_title=''
# directory='./novel/{}/'.format(parent_title)
# if not os.path.exists(directory):
#     os.makedirs(directory)
#
# filename='{}{}.txt'.format(directory,son_title.replace('',''))
# with open(filename,'w') as f:
#      f.write('我是小说')


headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1'}
url = "https://www.daomubiji.com/"
html = requests.get(url=url, headers=headers).text
print(html)
p = etree.HTML(html)
list_l = p.xpath("//div[@class='homebook']/h2/text()")
print(list_l)
